当前位置: 开发笔记 > 编程语言 > 正文

个人整理|吴恩达机器学习笔记

作者：请叫我浪漫先生_858 | 来源：互联网 | 2023-09-13 10:59

吴恩达机器学习笔记 | Day01

1. 引言(Introduction)

1.1 欢迎(Welcome)
1.2 机器学习是什么？(What is Machine Learning?)
1.3 监督学习(Supervised Learning)

1. 引言(Introduction)

1.1 欢迎(Welcome)

机器学习是目前信息技术中最激动人心的方向之一。目前，机器学习已经广泛应用在各行各业中，可谓无处不在。你或许每天都在不知不觉中使用了机器学习的算法。在这门课中，我们将学习到这门技术的前沿，并可以自己实现学习机器学习的算法。

机器学习(Machine Learning)

不只是应用于人工智能(AI)领域
已经成为计算机的一个新能力(Capability)

一些常见的机器学习的应用，例如：

垃圾邮件过滤
搜索引擎排名
图像处理&识别

1.2 机器学习是什么？(What is Machine Learning?)

1.机器学习的定义，主要有以下两种：

Arthur Samuel (1959). Machine Learning: Field of study that gives computers the ability to learn without being explicitly programmed.

这个定义有点不正式但提出的时间最早，来自于一个懂得计算机编程的下棋菜鸟。他编写了一个跳棋程序，但没有显式地编程每一步该怎么走，而是让计算机自己和自己对弈，并不断地计算布局的好坏，来判断什么情况下获胜的概率高，从而积累经验，就像是在学习。最后，这个计算机程序成为了一个比他自己还厉害的棋手。
Tom Mitchell (1998). Well-posed Learning Problem: A computer program is said to learn from experience E with respect to some task T and some performance measure P, if its performance on T, as measured by P, improves with experience E.

Tom Mitchell 的定义更为现代和正式。在过滤垃圾邮件这个例子中，电子邮件系统会根据用户对电子邮件的标记(是/不是垃圾邮件)不断学习，从而提升过滤垃圾邮件的准确率。定义中的三个字母分别代表：
- T(Task): 将邮件分为垃圾邮件和非垃圾邮件。
- P(Performance): 电子邮件系统过滤垃圾邮件(即Task)的准确率。
- E(Experience): 观察用户对电子邮件的标记。

2.机器学习算法

主要有两种机器学习算法，分为：

监督学习(Supervised Learning)
无监督学习(Unsupervised Learning)

两者的区别为是否需要人工参与数据结果的标注。这两部分的内容占比很大，并且很重要，掌握好了可以在以后的应用中节省大量的时间。另外，这门课还会提供运用这些学习算法的实际建议，毕竟授人以鱼不如授人以渔。

其他一些也属于机器学习领域的算法：¹

半监督学习(Semi-Supervised Learning)
强化学习(Reinforcement Learning)
推荐系统(Recommender System)

1.3 监督学习(Supervised Learning)

监督学习是从标签化训练数据集中推断出函数的机器学习。在监督学习中，每个样本包含一个输入对象(通常由向量表示)和一个输出值(也叫做标签)。监督学习算法会分析训练集并产生一个推断函数，该函数能用于泛化新的样本。该算法可以采用一个最优化方案来正确地给出未知实例的类别标签。这要求学习算法以合理的方式将已知的训练数据集泛化到未知的情形。

监督学习一般可以分为两种：

回归问题(Regression)

回归问题即为预测一系列的连续值。

在房屋价格预测的例子中，先给出一系列已知的房屋售价数据，然后根据这些离散数据(right answer)来预测任意面积的房屋价格。如图所示，其中横轴表示房子的面积，单位是平方英尺；纵轴表示房价，单位是千美元。假如你的朋友有一间750平方英尺的房屋，他想知道大概能卖多少钱。我们可以在这组数据中画一条直线，或者换句话说，拟合一条直线，根据这条线可以推测出，这套房子可能卖 $150,000。我们也可以用二次方程去拟合，可能效果会更好。根据二次方程的曲线，向纵轴投影后我们可以推测出，这套房子能卖接近 $200,000。

稍后我们再讨论如何选择学习算法，如何决定用直线还是二次方程来拟合。总之，两个方案中有一个能让你朋友的房子出售得更加合理。
分类问题(Classification)

分类问题即为预测一系列的离散值，即根据已知数据来预测被预测的对象属于哪个分类。

在乳腺癌这个例子中，针对肿瘤样本的诊断结果，可以分为良性或恶性。如图所示，其中横轴表示肿瘤的大小；纵轴上，标出1和0表示是或者不是恶性肿瘤。已知样本中有5个是良性肿瘤样本，有 5个恶性肿瘤样本。假如你的朋友很不幸检查出患有乳腺癌，若她的肿瘤大小已知，那么我们要解决的问题就在于能否估算出肿瘤是恶性的或是良性的概率。

我们还可以用另一种方式绘制这些数据点，这里只需要一个横轴。既然我们把肿瘤的尺寸看做区分恶性或良性的特征，那么可以用不同的符号来表示良性和恶性肿瘤。我们不全部画 X，良性的肿瘤改成用 O 表示，恶性的继续用 X 表示，以此来预测肿瘤的恶性与否。

事实上在分类问题中，输出可能不止两个值。比如说可能有2种乳腺癌，所以输出会有 0、 1、 2三个值。 0代表良性， 1表示第1类乳腺癌，2表示第2类癌症，但这也是分类问题。再例如垃圾邮件分类问题，同样属于监督学习中的分类问题。

在其它一些机器学习问题中，可能会遇到不止一种特征。举个例子，我们不仅知道肿瘤的尺寸，还知道对应患者的年龄。还有更多的特征，比如肿块密度，肿瘤细胞尺寸的一致性和形状的一致性等等。如下图所示，列举了总共5种不同的特征(坐标轴上的两种和右边的三种)。但是在实际情况下，我们希望不只用3种特征，而是能用无限多种特征，好让算法可以利用大量的特征来做推测。但是这样会出现“怎么处理无限多个特征”，“怎么存储这些特征”等问题，并且电脑的内存会不够用。

而支持向量机算法可以解决这个问题，里面有一个巧妙的数学技巧，能让计算机处理无限多个特征。

以上就是监督学习的内容。

本系列笔记部分来源于开源项目https://github.com/scruel/ML-AndrewNg-Notes

专业术语概念均引自于***Wikipedia ↩︎

推荐阅读

config
BL55072/BL55075 应用笔记

BL550721、特点液晶驱动输出：Common输出4线，Segment输出36线内置显示寄存器364144bit2线串行接口（SCL,SDA）内置震荡电路内置液晶驱动电源电路13 ... [详细]

蜡笔小新 2024-11-26 10:37:59
main
Sia (Siacoin/SC/云储币) 去中心化存储平台资源汇总

本文整理了关于Sia去中心化存储平台的重要网址和资源，旨在为研究者和用户提供全面的信息支持。 ... [详细]

蜡笔小新 2024-11-15 13:29:59
main
从0到1搭建大数据平台

从0到1搭建大数据平台 ... [详细]

蜡笔小新 2024-11-12 15:26:03
range
机器学习的持续探索与进展

在机器学习领域，深入探讨了概率论与数理统计的基础知识，特别是这些理论在数据挖掘中的应用。文章重点分析了偏差（Bias）与方差（Variance）之间的平衡问题，强调了方差反映了不同训练模型之间的差异，例如在K折交叉验证中，不同模型之间的性能差异显著。此外，还讨论了如何通过优化模型选择和参数调整来有效控制这一平衡，以提高模型的泛化能力。 ... [详细]

蜡笔小新 2024-11-11 10:27:39
range
SSAS入门指南：基础知识与核心概念解析

### SSAS入门指南：基础知识与核心概念解析Analysis Services 是一种专为决策支持和商业智能（BI）解决方案设计的数据引擎。该引擎能够为报告和客户端应用提供高效的分析数据，并支持在多维数据模型中构建高性能的分析应用。通过其强大的数据处理能力和灵活的数据建模功能，Analysis Services 成为了现代 BI 系统的重要组成部分。 ... [详细]

蜡笔小新 2024-11-07 03:53:06
main
雨中避雨问题（HDU2389）—— Hopcroft-Karp 算法应用

题目描述：给定 n 把雨伞和 m 个人，t 分钟后开始下雨。求在每个人只能使用一把雨伞的情况下，最多有多少人可以拿到雨伞。 ... [详细]

蜡笔小新 2024-11-26 14:35:41
scala
基于OpenCV的小型图像检索系统开发指南

本文详细介绍了如何利用OpenCV构建一个高效的小型图像检索系统，涵盖从图像特征提取、视觉词汇表构建到图像数据库创建及在线检索的全过程。 ... [详细]

蜡笔小新 2024-11-26 12:58:31
main
HDU1085 捕获本·拉登!

问题描述众所周知，本·拉登是一位臭名昭著的恐怖分子，他已失踪多年。但最近有报道称，他藏匿在中国杭州！虽然他躲在杭州的一个洞穴中不敢外出，但近年来他因无聊而沉迷于数学问题，并声称如果有人能解出他的题目，他就自首。 ... [详细]

蜡笔小新 2024-11-26 12:42:38
hash
时间感知的一次性密码验证机制 - 获取灵活的时间戳

探讨了生成时间敏感的一次性伪随机密码的方法，旨在通过加入时间因素防止重放攻击。 ... [详细]

蜡笔小新 2024-11-26 11:39:47
hash
从After Effects导入动画相机到Vizrt的方法

本文详细介绍了如何将After Effects中的动画相机数据导入到Vizrt系统中，提供了一种有效的解决方案，适用于需要在广播级图形制作中使用AE动画的专业人士。 ... [详细]

蜡笔小新 2024-11-26 10:47:22
hash
解决Visual Studio构建时遇到的IntelliSense错误

在使用Visual Studio构建项目时遇到了IntelliSense错误，具体表现为预期的')'未找到。本文提供了详细的解决方案和可能的原因分析。 ... [详细]

蜡笔小新 2024-11-26 09:39:06
dll
PHP 5.4 下 Windows 7 环境中 Memcached 分布式缓存的安装与配置

本文详细介绍了在 Windows 7 上安装和配置 PHP 5.4 的 Memcached 分布式缓存系统的方法，旨在减少数据库的频繁访问，提高应用程序的响应速度。 ... [详细]

蜡笔小新 2024-11-26 04:43:01
range
数据分析与数据挖掘：NumPy、Pandas和Matplotlib的使用指南

本文详细介绍了如何使用NumPy、Pandas和Matplotlib进行数据分析和数据可视化。通过具体的代码示例，帮助读者更好地理解和应用这些强大的Python库。 ... [详细]

蜡笔小新 2024-11-15 18:34:43
replace
自然语言处理(NLP)——LDA模型:对电商购物评论进行情感分析

目录一、2020数学建模美赛C题简介需求评价内容提供数据二、解题思路三、LDA简介四、代码实现1.数据预处理1.1剔除无用信息1.1.1剔除掉不需要的列1.1.2找出无效评论并剔除 ... [详细]

蜡笔小新 2024-11-14 18:21:21
replace
业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？

业务团队与独立团队在数据分析领域的效能对比：谁更胜一筹？ ... [详细]

蜡笔小新 2024-11-06 17:18:07

请叫我浪漫先生_858

这个家伙很懒，什么也没留下！

Tags | 热门标签

RankList | 热门文章